JH I T || 


ChinaXiv 合 作 


第 38 卷 第 3 其 计算 机 应 用 研究 vo. 38 No. 3 
录用 定稿 Application Research of Computers Accepted Paper 


基于 图 像 视野 划分 的 公共 场所 人 群 计数 模型 
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(上 海 理工 大 学 光电 信息 与 计算 机 工程 学 院 ， 上 海 200093) 


摘 要 : 为 解决 公共 场所 中 人 群 分 布 不 均 以 及 目标 尺度 而 影响 人 数 估计 的 问题 ， 提 出 了 基于 图 像 视野 划分 的 公 
共 场 所 人 群 计数 模型 。 该 模型 首先 将 图 像 场景 划 2 对 近视 野 区 域 ， 使 用 基于 YOLO 的 网 络 进 
行 行人 检测 并 通过 添加 场景 约束 避免 在 远近 视野 区 域内 重复 计数 ; 对 远视 野 区 域 ， 使 用 改进 的 MobileNets 提取 人 群 
密度 分 布 特征 , 并 引入 超 分 准 率 重建 模块 提升 人 群 密度 图 质量 , 最 终 通 过 计算 两 者 之 和 得 到 整 幅 图 像 中 的 人 群 数量 。 
在 Shanghai Tech 和 Mall 数据 集 上 进行 测试 ， 结 果 表 明 该 模型 在 准确 性 和 鲁 棒 性 上 有 显著 的 提高 。 实 验证 明 ， 模 型 
切实 可 行 。 
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Public place crowd counting model based on image field division 


Yuan Jian, Wang Shanshan, Luo Yingwei 
(School of Optical Electrical & Computer Engineering, University of Shanghai for Science& Technology, Shanghai 200093, 
China) 


Abstract: In order to solve the problems of uneven population distribution and different target scales affecting the crowd 
counting in public places, this paper proposed a novel crowd counting model based on image field division. Firstly, it divided 
the image scene into two parts: the near and far field of vision area. For the near field of vision area, it used the YOLO based 
network for pedestrian detection and added scene constraints to avoid repeated counting in the near and far field of vision. 
For the far field of vision area, it used the improved MobileNets to extract the population density distribution characteristics, 
and introduced the super-resolution reconstruction module to improve the quality of the population density map. Finally, it 
obtained the population in the whole image by calculating the sum of the two. This paper tested the proposed model on 
Shanghai Tech and Mall datasets, and the results show that the model has a significant improvement in accuracy and robustness. 
Experiments show that the model is feasible. 

Key words: crowd counting; convolutional neural network; lightweight 
0 引言 文献 2,3,5~7] 通 过 提取 行人 全 身 的 特征 (如 Haar 小 波 .HOG、 
边缘 特征 ) 训 练 分 类 器 进行 检测 ， 该 类 算法 在 人 数 不 多 、 密 度 
随 着 社会 经 济 发 展 以 及 人 口 数 量 的 不 断 增加 ， 比较 低 的 人 群 计数 中 能 够 呈现 较 好 的 效果 。 文 献 [4，9，11， 
呈现 多 样 性 ， 大 型 社会 聚集 活动 日 益 增 多 ， 车 站 、 、 商 12] 通 过 基于 局 部 特征 的 方法 来 解决 ， 其 中 文献 [12] 通 过 Haar 
场 等 公共 场所 人 群 聚焦 挤 的 场景 随处 可 见 ， aa 小 波 变换 提取 头 部 轮廓 的 特征 区 域 ， 并 利用 透视 变换 技术 更 
以 及 公共 安全 带 来 巨大 的 挑战 。 人 群 密度 往往 与 人 群 安全 密 。 ”准确 地 估计 人 群 大 小 。 这 种 方法 对 存在 一 定 遮 挡 的 人 群 ， 检 
切 相关 ,一 旦 某 处 人 群 密度 过 高 ,拥挤 的 人 群 容易 引起 恐慌 ， 测 效果 有 一 些 提升 ， 但 是 随 着 人 群 密度 的 升 高 ， 人 与 人 之 间 
甚至 引发 踩踏 事件 ， 而 传统 的 视频 监控 系统 需要 专人 守候 检 ”的 遮挡 逐渐 变 得 更 加 严重 时 ， 此 算法 变 得 更 加 耗 时 ， 而 且 计 
测 ， 耗 费 大 量 的 人 力 ， 若 能 让 计算 机 实时 对 当前 场景 中 的 聚 ” 算 准 确 度 也 不 够 理想 。 
集 人 群 的 数量 进行 监测 分 析 ， 一 旦 出 现 拥挤 趋势 就 自动 发 出 基于 回归 的 方法 3%17719 通 过 学 习 一 种 低层 次 特征 (如 
警报， 及 时 通知 相关 部 门 进 行 干预 ， 这 对 保证 公共 场所 人 群 ”边缘 特征 04418、 纹 理 特征 08] 等 ) 到 人 和 群 数量 的 映射 ,建立 图 像 
安全 具有 重大 意义 。 但 是 公共 场所 情况 复杂 且 环 境 不 可 控 、 特征 和 图 像 人 数 的 回归 模型 ， 从 而 得 到 预测 的 人 数 。 此 类 方 
人 群 分 布 无 规律 、 相 互 遮挡 、 光 照 不 均匀 、 相 机 透视 等 问题 ” 法 把 人 群 看 做 一 个 整体 ， 成 功 解决 了 相互 遮挡 等 问题 ， 但 是 
的 存在 ， 导 致 准确 估计 人 群 数量 仍然 是 一 项 具有 挑战 性 的 工 。” 却 忽略 了 行人 空间 分 布 情况 的 重要 性 。 于 是 有 研究 人 员 
作 。 本 文 对 公共 场所 人 和 群 计数 问题 进行 研究 ， 提 出 了 一 种 精 “2629 想到 将 空间 信息 融入 到 学 习 过 程 中 ， 通 过 学 习 图 像 特 
确 度 更 高 ， 计 算 速度 更 快 的 对 图 像 进行 人 数 识别 的 公共 场所 ” 征 与 对 应 对 象 密度 图 之 间 的 线性 映射， 建立 回归 模型 。 文 献 


ig 


人 和 群 计数 模型 。 [15] 基 于 图 像 SIFT 特性 , 采用 线性 回归 的 方式 得 到 人 群 密度 
分 布 图 ,之 后 对 密度 图 进行 积分 计算 ,最 终 得 到 人 群 数量 ， 
1 ”相关 工作 的 分 布 图 ,之 后 对 密度 图 进行 积分 计算 , 最终 得 到 人 群 数 


这 种 方法 特点 是 在 环境 不 复杂 的 条 件 下 ， 检 测速 度 很 快 ， 避 
现 如 今 越 来 越 多 研究 人 员 开 始 关 注 人 群 iot Wi, H 。” 兔 了 学 习 检测 和 定位 单个 对 象 实例 的 困难 。 尽 管 基于 密度 回 
对 于 此 类 问题 的 研究 大 致 可 以 分 为 基于 行人 检测 、 基 于 回归 归 的 方式 在 一 定 程度 上 提高 了 计数 精确 度 ， 但 其 本 质 仍然 是 


以 及 基于 深度 学 习 的 三 类 方法 。 通过 手工 提取 人 群 特征 。 
期 的 人 群 研究 通常 以 提取 整体 或 局 部 特征 的 方式 进行 。 近年 来 ， 随 着 科技 的 发 展 以 及 深度 学 习 技术 在 计算 机 视 
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觉 领 域 的 广泛 应 用 ， 大 量 的 基于 深度 学 习 的 算法 被 提出 。 深 信息 丰富 ， 人 和 群 遮挡 不 算 严 重 ， 本 文 首先 用 传统 卷 积 网 络 进 
度 卷 积 神经 网 络 (convolutional neural network, CNN) 和 凭借 所 表 行 常规 的 特征 学 习 训练 ， 卷 积 神经 网 络 以 静态 人 和 群 图 像 为 输 
现 出 来 的 优异 的 特征 学 习 能 力 成 为 最 成 功 的 深度 模型 之 一 。 入 , 预先 训练 的 权 值 生成 视觉 特征 之 后 就 采用 YOLO 架构 中 
研究 人 员 逐 渐 开 始 考虑 使 用 以 深度 卷 积 网 络 为 代表 的 深度 学 作为 检测 模块 。 但 是 在 实验 过 程 中 发 现 ， 在 根据 深度 信息 进 
习 算 法 来 解决 复杂 场景 下 的 人 群 计数 问题 上 2。 文献 [22] 提 行 图 像 分 割 的 时 候 ， 切 割 线 往 往 会 将 分 割 线 附 近 的 人 分 割 成 
出 交替 优化 密度 图 估计 和 人 数 估计 的 算法 (CrowdCNN), 首 次 ”两 半 ， 模 型 在 近视 野 区 域 和 远视 野 区 域内 可 能 会 出 现 重复 计 
将 深度 卷 积 网 络 应 用 于 跨 场 景 的 人 群 密度 估计 和 人 群 计数 问 数 情况 , 为 解决 这 个 问题 ， 本文 基于 YOLO 网 络 P?] 的 行人 检 
题 。 文 献 [24] 提 出 一 种 基于 空洞 卷 积 神经 网 络 的 单列 计数 模 ”测算 法 提出 了 添加 空间 约束 的 近视 野 计数 算法 SCPD, 该 算法 
型 ， 该 模型 在 大 幅 削 减 网 络 参数 量 和 网 络 训练 难度 的 同时 ， 在 YOLO 网 络 进行 检测 后 , 将 中 心 坐标 落 在 限制 范围 之 内 ( 即 
显著 提高 了 人 和 群 计数 的 精度 和 人 和 群 分 布 密度 图 的 还 原 度 。 文 无 效 区 域 ) 的 检测 框 删 掉 , 从 而 避免 重复 计数 , 降低 错误 检测 。 
献 [26] 采 用 类 似 inception 架构 的 模块 提取 多 尺度 的 人 头 信息 ， 
在 每 个 卷 积 层 都 同时 使 用 不 同 大 小 的 卷 积 核 ， 最 后 通过 反 卷 
积 得 到 最 终 的 密度 图 。 

综 上 所 述 , 基于 CNN 的 方法 大 大 简化 了 前 景 分 割 、 目 标 
检测 定位 等 复杂 的 工作 ， 但 是 ， 对 于 公共 场所 中 的 人 群 数量 
估计 ， 上 述 方法 仍然 存在 一 些 不 足 : 

a) 基于 CNN 的 算法 本 质 上 还 是 基于 回归 的 方式 ， 这 类 
方法 更 适用 于 人 群 密度 分 布 相对 均匀 的 场景 。 但 是 现实 生活 
中 公共 场所 中 人 群 流向 具有 较 大 的 随机 性 ， 往 往 会 呈现 高 密 
度 和 低 密度 共存 的 特点 ， 并 且 公 共 场 所 中 摄像 头 通常 被 放置 
在 高 于 人 群 的 地 方 ， 加 之 不 同 的 拍摄 角度 ， 所 获得 的 人 群 图 
像 存 在 各 种 各 样 的 视角 ， 分 布 在 图 像 视野 不 同 区 域 也 会 有 不 


同 的 尺度 变化 ， 因 此 对 于 以 上 所 提 到 的 这 种 非 统 一 的 场景 ， 
上 述 算法 并 不 具有 普 适 性 。 
b) 现 有 基于 CNN 的 算法 通常 通过 设置 多 列 大 小 不 同 卷 图 1 IFDM 模型 总 体 结构 
积 核 的 网 络 来 解决 计数 过 程 中 的 人 群 尺 度 变化 ， 相 互 遮挡 等 Fig. 1 Overall structure of IFDM model 
问题 ， 这 种 做 法 却 导致 网 络 变 宽 变 深 ， 而 且 在 训练 过 程 中 还 Ta p 
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需要 不 断 调整 卷 积 核 大 小 以 适应 人 群 尺度 变化 ， 因 此 使 网 络 
计算 量 过 大 ， 场 景 适应 性 变 差 ， 无 法 进行 实时 的 人 群 计数 预 
测 。 


基于 以 上 分 析 ， 本 文 提 出 一 种 基于 图 像 视野 划分 的 公共 
场所 人 群 计数 模型 (public place crowd counting model based on 
image field division， 简 称 IFDM 模型 )。 该 模型 以 更 强 的 场景 (a) 原 始 图 像 (b) 深 度 信息 图 
适应 性 ， 较 高 精度 的 计算 能 力 ， 更 小 的 网 络 规模 ， 实 现 对 公 eT oy cd ; 

共 场 所 人 和 群 数量 的 准确 估计 。 经 实验 验证 ， 模 型 拥有 较 好 的 CN aug 
泛 化 能 力 和 较 强 的 鲁 棒 性 。 a i í 


2  IFDM 模型 总 体 结构 


IFDM 模型 总 体 结构 如 图 1 所 示 ， 首 先 对 人 群 图 像 根 据 
其 深度 信息 图 进行 远近 视野 区 域 划 分 ， 图 像 的 深度 信息 包含 (0) 远 视野 区 域 (d) 近 视野 区 域 
了 物体 相对 前 后 位 置信 息 ,能 够 反映 物体 距离 拍摄 源 的 远近 。 图 2 视野 区 域 示 
IFDM 模型 使 用 文献 [27] 中 的 方法 获取 单 张 图 像 的 深度 信息 ， Fig.2 Schematic diagram of field of view 
然后 由 深度 信息 颜色 的 局 部 相似 度 2， 根 据 局 部 像素 聚 类 边 首先 YOLO 网 络 将 输入 图 像 划 分 为 S*S 个 单元 格 , 每 个 
界 将 图 像 划 分 为 远近 视野 两 个 区 域 。 对 近视 墅 区域， 提出 了 单元 格 给 定 B 个 不 同 规 格 的 初始 候选 框 ， 预测 候选 框 由 卷 积 


使 用 添加 场景 约束 的 行人 检测 计数 算法 (Counting algorithm ”神经 网 络 提 取出 来 ， 每 幅 图 像 的 候选 框 数量 为 SsS*B， 同 时 


of pedestrian detection with scene constraints, 简 称 SCPD)， 通 将 预测 候选 框 中 是 否 存在 竺 判别 目标 的 置信 度 设 为 
过 基于 YOLO 的 网 络 进 行 行 人 检测 并 通过 添加 场景 约束 避 Conf (object) = Pr(object) * Pr(Class, | Object) * IOU v"; (1) 
免 横 型 在 远近 视野 区 域内 重复 计数 ， 对 远视 野 区 域 ， 提 出 了 其 中 Prlohjecn) 判断 网 格 中 是 否 有 需要 检测 的 目标 ， 


种 高 质量 密度 图 回归 积分 计数 算法 (Regression integral Pr(Class, | Object) 表示 一 个 候选 框 在 包含 目标 的 条 件 下 ， 目 标 
counting algorithm with high quality density map, 简 称 HQDPRI)， ”类别 为 Class， 的 概率 ，10U% 表示 真实 框 与 预测 框 的 交 并 比 。 
通过 设计 了 一 种 结合 超 分 辩 率 重建 模块 的 轻 量 型 网 络 提取 人 由 于 大 部 分 候选 框 中 并 不 包含 行人 ， 甚 至 是 不 包含 任何 目标 
密度 分 布 特征 并 通过 映射 生成 高 质量 人 群 密度 图 ， 最 终 通 物 ， 因 此 为 了 减轻 网 络 学 习 的 难度 ， 将 不 存在 目标 物 的 候选 
[计算 远近 视野 图 像 中 人 数 之 和 得 到 整 幅 图 像 中 的 人 群 数量 。 框 置信 和 度 Conf (Otjec?) 设置 为 0， 同 时 由 于 只 需要 对 存在 目标 
4 Vb HE HH 5 一 4L Hop 多 EU ood y 
8. 添加 场景 约束 的 行人 检测 计数 算法 SCPD uu. aC meae 
当 根 据 深度 图 像 聚 类 的 边界 提取 出 图 像 的 分 割 线 后 ， 将 a) 输入 待 检测 的 人 群 图 像 。 


cR 


其 映射 到 原始 人 和 群 图 像 中 进行 区 域 的 分 割 ， 区 域 划分 结果 如 b) 根据 人 群 空 间 分 布 的 先 验 信息 ， 使 用 式 (2) 对 可 能 出 
图 2 所 示 。 由 图 2(9) 可 知 ， 近 视野 区 域 行人 个 体 特 征明 显 ， 现 误 检 的 区 域 进行 划分 。 
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y=h+b xe[«.x) 
2 = ksx+b, [5.x)] 
y x | xe[x,.x Q) 
y,7k,x-b, 

折线 方程 随 着 场景 的 不 同 而 变化 ， 设 定 在 切割 线 与 折线 
之 内 的 区 域 为 无 效 区 域 。 将 目标 为 行人 的 概率 公式 设 为 
Pr(personlobject) ， 则 候选 框 中 包含 行人 的 置信 度 Conf (person) 表 
示 为 


XE [xa $ Xn ] 


Conf (person) = Pr(object) x Pr(person|object) x IOU nu (3) 
对 检测 结果 进行 后 续 处 理 。 假 设 检测 框 的 左上 角 坐 标 和 
右 下 角 坐 标 分 别 为 mins Vmin) p Cima oa) ,那么 这 个 边界 框 的 中 
IDEER 7S x = Quis Xs) /2 5. Y» 7 Otis t Yu) /2 o HIR x exo) ， 
y<y，isdOg]， 则 表示 检测 框 出 现在 无 效 区 域 , 那么 直接 删 
除 无 效 区 域 出 现 的 边框 , 同时 不 将 此 人 计 入 最 终 统 计 人 数 中 ， 
添加 约束 前 后 检测 结果 对 比如 图 3 所 示 。 


c) 对 添加 约束 后 的 检测 结果 进行 统计 输出 近视 野 区 域 
相应 的 人 数 。 


i RE 


图 3 添加 约束 前 后 检测 结果 对 比 
Fig.3 Comparison oftest results before and after adding constraints 


4 ”高 质量 密度 图 回归 积分 计数 算法 HQDPRI 


不 同 密度 的 人 群 在 特征 上 存在 较为 明显 的 差异 ， 远 视野 
区 域 人 群 往往 尺度 较 小 ， 相 互 遮 挡 比 较 严重 ， 目 标 检 测 的 方 
式 在 此 部 分 的 检测 效果 并 不 理想 ， 因 此 该 部 分 采用 密度 图 区 
归 的 方式 进行 计算 。 文 献 [21] 通 过 一 种 多 列 网 络 并 联 的 网 络 
模型 实现 提取 不 同 尺度 的 人 头 特征 ,但 是 却 导 致 参数 量 过 大 ， 
并 且 产 生 了 很 多 低 效 的 分 支 结构 。 文献 [20] 先 将 图 像 分 块 , 然 
后 将 每 个 块 通过 分 类 网 络 决定 进一步 输入 到 哪个 子 网 络 ， 虽 
然 取 得 了 不 错 的 检测 效果 ， 但 是 却 存在 与 文献 [21] 同 样 的 问 
题 ， 不 但 计算 量 大 ， 而 且 简 单 的 分 块 也 影响 了 计数 预测 的 准 
确 性 。 因 此 ， 本 文 提 出 HQDPRI 算法 ,通过 一 种 结合 超 分 辨 
率 重 建 模块 的 轻 量 型 网 络 提取 人 和 群 密度 分 布 特征 并 通过 映射 
生成 高 质量 人 群 密度 图 ， 最 后 对 高 质量 密度 图 进行 积分 来 求 
出 此 部 分 的 人 数 。 
41 结合 超 分 辨 率 重建 模块 的 轻 量 型 深度 卷 积 网 络 
虽然 区 域 划分 工作 使 得 本 部 分 不 再 需要 考虑 不 断 调整 卷 
积 核 大 小 以 适应 人 群 尺度 变化 ， 但 是 远视 野 区 域 仍然 存在 
人 和 群 分 布 密 集 、 相 互 遮挡 等 问题 。HQDPRI 在 改进 的 轻 量 级 
网 络 MobileNets69 提 取 特 征 的 基础 之 上 ， 引 入 了 一 个 超 分 辩 率 
重建 模块 ， 设 计 了 一 个 新 的 用 于 图 像 人 群 计数 卷 积 神经 网 络 。 
主体 网 络 在 MobileNets 基础 上 进行 改进 ， 以 深度 卷 积 和 
1X1 的 逐 点 卷 积 代替 标准 卷 积 操作 , 共 设 置 了 27 层 卷 积 层 ， 
H^ 3x3 和 1X1 的 卷 积 核 构成 。 同 时 减少 了 步 长 为 2 的 
卷 积 核 的 个 数 ， 将 Conv4 dw 和 Conv5 dw 的 步 长 设置 为 1， 
其 余 卷 积 层 步 长 保持 不 变 ， 这 样 做 的 目的 是 使 卷 积 后 的 图 像 
尺度 更 大 ， 保 留 更 多 空间 细节 信息 ， 输 入 图 像 大 小 为 224X 
224X3， 同 时 去 掉 了 均值 池 化 层 和 全 连接 层 ， 最 终 输出 1/16 
原 图 的 密度 特征 图 ， 具 体 参数 变化 如 表 1 所 示 。 网 络 没有 采 
用 池 化 层 ， 而 是 通过 将 深度 卷 积 的 步 长 设置 为 2 以 此 实现 下 
采样 的 目的 ， 这 样 的 组 合 方式 使 网 络 在 损失 精度 不 多 的 情况 
下 大 幅度 降低 了 参数 量 和 计算 量 ， 提 升 了 检测 速度 。 与 常用 
的 VGG16 网 络 模型 相 比 ， 计 算 准 确 度 与 其 相似 ， 但 是 计算 
复杂 度 却 减 小 了 27 倍 。 为 了 能 获得 更 加 准确 的 计算 精准 度 ， 
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网 络 后 半 部 分 引入 一 个 超 分 辨 率 重 建 模 块 用 于 提高 密度 图 的 


质量 。 


表 1 主体 网 络 参数 表 


Tab.1 Backbone network parameters 


卷 积 层 / 步 长 卷 积 核 输入 尺寸 
conv0/s2 3x3x3x32 224x224x3 
convl dw/sl 3x3x32 dw 112x112x32 
convl/sl 1x1x32x64 112x112x32 
conv2 dw/sl 3x3x64 dw 112x112x64 
conv2/sl 1x1x32x64 112x112x64 
conv3 dw/s2 3x3x64 dw 112x112x64 
conv3/sl 1x1x64x128 56x56x64 
conv4 dw/sl 3x3x128 dw 56x56x128 
conv4/sl 1x1x128x256 56x56x128 
conv5 dw/sl 3x3x256 dw 56x56x256 
conv5/sl 1x1x256x256 56x56x256 
conv6 dw/s2 3x3x256 dw 56x56x256 
conv6/sl 1x1x256x512 28x28x256 
5xconv dw/sl 3x3x512 dw 28x28x512 
5xconv/sl 1x1x512x512 28x28x512 
conv12 dw/s2 3x3x512 dw 28x28x512 
conv12/sl 1x1x512x1024 28x28x512 
conv13 dw/s2 3x3x1024 dw 28x28x1024 
conv13/sl 1x1x1024x1024 14x14x1024 


42 ”起 分 辩 率 重建 模块 

超 分 辩 重 建 技术 可 以 实现 目标 物 的 专注 分 析 ， 从 而 获取 
感 兴趣 区 域 更 高 空间 分 状 率 的 图 像 ， 当 前 基于 深度 学 习 的 单 
张 图 片 超 分 辩 率 重建 在 重建 效率 和 计算 量 方面 已 经 取得 了 很 
大 的 成 功 。 文 献 [31] 提 出 将 低 分 辩 率 的 图 片 直 接 通过 卷 积 网 
络 来 做 超 分 辨 率 ， 同 时 提出 了 一 种 有 效 的 子 像素 卷 积 层 ， 通 
过 学 习 到 一 组 扩大 滤波 器 去 将 低 分 辩 率 的 特征 映射 到 高 分 辨 
率 的 输出 。 通 过 这 种 方式 ， 不 但 省 去 了 双 三 次 插值 法 ， 也 大 
大 减轻 了 计算 量 。 本 文 在 文献 [31] 基 础 上 进行 改进 , 将 超 分 辩 
重建 技术 引入 网 络 结构 中 ， 则 在 优化 密度 图 质量 ， 从 而 获得 
更 加 准确 的 计算 精准 度 。 
超 分 辨 率 重 建 模块 网 络 的 第 一 层 选择 使 用 两 个 3X3 的 
卷 积 核 代 蔡 5X5 的 卷 积 核 ， 这 样 不 仅 能 够 在 保证 具有 同样 
感知 野 的 条 件 下 提升 网 络 的 深度 ， 增 加 非 线 性 特性 的 表达 ， 
而 且 在 一 定 程 度 上 也 提升 了 神经 网 络 的 特征 学 习 效 果 。 第 二 
层 及 第 三 层 使 用 深度 可 分 离 卷 积 代替 普通 卷 积 ， 同 时 为 了 适 
应 图 像 重 建 任 务 ， 省 去 了 BatchNorm。 通 过 前 两 层 卷 积 得 到 
特征 通道 数 为 (7 为 图 像 的 目标 放大 倍数 ) 的 与 输入 图 像 大 
小 一 样 的 特征 图 像 ， 随 后 第 三 层 亚 像素 卷 积 层 将 特征 图 像 的 
每 个 像素 的 x* 个 通道 重新 排列 成 一 个 rxr 的 区 域 ， 对 应 于 高 
分 辨 率 图 像 中 一 个 rxr 大 小 的 子 块 ， 从 而 大 小 为 HxWxr 的 
特征 图 像 被 重新 排列 成 :HxrW x1l 的 高 分 辩 率 图 像 , 由 此 得 到 
优化 的 人 群 密度 图 ， 该 过 程 实 际 上 并 不 涉及 卷 积 操 作 ， 只 是 
对 图 像 大 小 做 变换 ， 因 此 效率 更 高 。 
4.8 HQDPRI 算法 步骤 

HQDPRI 算法 步骤 如 下 : 

a) 将 人 群 图 像 合 集 送 入 改进 后 的 MobileNets 主体 网 络 
中 提取 卷 积 特征 。 

使 用 带 标准 差 的 高 斯 核 函 数 Ce OO 与 头 部 坐标 Gc 7 x) 进 
行 卷 积 代入 式 (4) 得 到 人 群 密度 函数 F(W 。 计 算 公 式 为 


N — 
FGOz2Y 8(x-x)xG, GO o,- fd! (4) 
i-l 


Mr 
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其 中 ，5G-z) 表 示 坐 标 为 所 的 人 头 标记 点 ， 图 像 中 标记 点 写 MSE 反映 了 估计 量 与 被 估计 量 之 间 的 差异 程度 , MSE fü 


的 近邻 距离 分 别 表示 为 dide d, a! 为 图 像 中 标记 点 与 其 。 越 小 说 明 算 法 的 鲁 棒 性 越 好 。 


最 近 的 个 人 头 之 间 的 平均 距离 。 实 验 RH 证 明 ， p=0.3 时 得 5.8 ”对 比 实验 结果 分 析 
到 的 人 群 密 度 图 效果 最 好 。 Shanghai Tech 数据 集 由 part A 和 part B 两 部 分 组 成 ， 
超 分 辨 紊 重建 模块 通过 亚 像素 卷 积 层 将 密度 图 F(x) 的 这 两 个 子 集 之 间 存 在 着 显著 的 密度 差异 ，part_A 中 包含 482 
像素 重新 排列 ， 提 高 密度 图 的 质量 ， 计 算 公式 为 张 随机 从 互联 网 上 抓 取 的 图 片 ， 人 和 群 密度 较 大 ; part B 中 包 
PS (FG), = F Ow yyyewramodl yn)rermodle,n) (6) f 716 张 从 上 海 繁华 街头 拍摄 的 图 片 ， 人 和 群 密度 中 等 但 是 人 
其 中 ，PS 为 一 个 同期 混 排 算 子 ， 它 把 五 xzWxr? 张 量 的 元 素 后 群 分 布 变化 较 大 。 此 数据 集 总 共 包含 1198 张 带 标注 的 图 片 ， 


移 到 形状 rH xrWx1 的 张 量 。mod(x,r) ，mod(y,7) 表示 在 滤波 器 其 中 总 标记 的 人 头 数 达到 330165 人 。 表 3 给 出 了 Shanghai 

卷 积 期 间 周 期 性 地 激活 不 同 子 像素 位 置 上 图 案 ，x、y 是 高 Tech 数据 集 上 的 实验 对 比 结 果 ， 文 献 [20~24] 都 是 基于 CNN 

辨 率 空间 中 的 输出 像素 坐标 。 的 方法 。 由 表 中 的 结果 可 以 看 出 ， 在 part_B 测试 集中 ， 该 模 

b) 通过 对 高 质量 密度 图 进行 积分 求 和 来 求 出 此 部 分 的 型 的 MAE 与 文献 [22] 的 相 比 下 降 了 35.94%，MSE 下 降 了 

人 数 N,， 计 算 公 式 为 34.53%; part A 测试 集中 的 MAE FT 39.38%, MSE 下 降 
M - REGE s) 0) 了 38.06%。 与 文献 [21] 相 比 ， Part. A iil M 与 其 相持 平 ， 

i 与 文献 [24] 相 比 ，part_A rP MAE 反而 增加 了 8.52%， 这 是 医 


Ws ' 为 part_A 测试 集中 的 人 和 群 密度 较 大 , 难以 区 分 出 明显 的 远近 
5 。 实验 与 分 析 视野 区 域 ， 但 是 较 其 他 实验 结果 可 以 看 出 MSE 仍 表 现 得 较 

为 了 检验 IFDM 的 有 效 性 ,选用 Shanghai Tech?! fH Mall? ”为 优秀 。 通 过 以 上 数据 可 以 看 出 , 与 同样 是 基于 CNN 的 算法 
数据 集 作为 实验 数据 来 源 , 其 中 Mal 数据 集中 的 数据 信息 来 ”进行 比较 ， 该 模型 整体 结果 优 于 经 典 算法 ， 在 人 群 密度 分 布 


自 一 段 商场 的 视频 监控 ， 场 景 变化 较 小 ， 人 数 相 对 稀少 。 而 “变化 较 大 的 情况 下 更 具有 良好 的 性 能 。 图 4 给 出 了 模型 在 
Shanghai Tech 数据 集 是 从 网 络 中 随机 选择 的 ， 人 和 群 密度 大 且 —— Shanghai Tech 数据 集 的 实验 结果 示意 图 。 
场景 变化 更 加 丰富 。 训 练 集 与 测试 集 划 分 详情 如 表 2 所 示 。 3&3 Shanghai Tech 数据 集 的 实验 结果 对 比 
实验 环境 基于 Linux 64 Ubuntu16.04 操作 系统 ， 深 度 学 习 框 Tab.3 Comparison of experimental results in Shanghai tech dataset 
架 使 用 TensorFlow， 显 卡 为 GTX-Titan X. part A part B 
xo 数据 集 划分 详情 "s MAE MSE MAE MSE 
e» Tab.2 Details of data set division / 幅 CrowdCNN P?! 181.8 2717 32.0 49.8 
e 数据 集 训练 集 测试 集 FCNP3] 1265 1735 237 334 
© Mall 800 1200 MCNNPH 110.2 173.2 26.4 41.3 
N ShanghaiTech part_A 300 182 HCNN'?! 100.8 152.3 21.5 33.4 
s ShanghaiTech part B 400 316 IFDM 110.2 172.0 20.5 32.6 
ie 5.1 模型 训练 NT SER STR y | í 
2 本 文 使 用 欧式 距离 作为 损失 函数 来 测量 预测 人 群 密度 图 
>E ”与 真实 密度 图 之 间 的 差 值 ， 计 算 公 式 为 
c L0) 3 )gFO.0-F (8) 
TO bbs eXSBUSULRGENIO 3G Naiak a x, NINE 
o HAWE i ERR, FOG.O)RI F aR :第 i 张 预测 人 群 " 4 测试 图 片 密度 
密度 图 和 真实 人 和 群 密度 图 。 Fig. 4 Schematic diagram of test image density 
为 了 加 快 模型 收敛 速度 ， 本 文 使 用 自 适 应 学 习 率 的 Mall 数据 集 由 2000 帧 大 小 为 640X480 的 帧 组 成 ， 其 中 
Adam 优化 算法 对 网 络 进行 优化 , 并 将 初始 学 习 率 设置 为 le- 总 标记 的 行人 数量 超过 60000 人 ， 除 了 具有 不 同 的 光照 条 件 
5， 设 batch_size=4。 根 据 以 往 的 经 验 ， 训 练 集 中 数据 过 少 在 ”和 人 和 群 密度 之 外 ， 数 据 集 的 透视 畸变 较为 严重 ， 物 体 尺 寸 和 
训练 过 程 中 容易 导致 网 络 过 拟 合 ， 因 为 为 了 避免 过 拟 合 现象 ” ”外观 变化 较 大 , 遮挡 也 更 为 频繁 。 K 4 给 出 了 Mall 数据 集 上 


的 产生 ， pe uA d i RI-FERESK FE 88 的 实验 结果 , 文献 [13，17] 是 基于 传统 的 方法 , 文献 [20, 32] 是 
前 为 四 个 大 小 相同 且 互 不 重 攻 的 块 ， 经 过 这 样 的 处 理 之 后 将 ”基于 CNN 的 方法 ， 由 表 中 的 结果 可 以 看 出 ， 与 传统 方法 171 相 
训练 集 扩 大 了 4 比 , IFDM 模型 的 MAE 下 降 了 40.0096, 而 MSE 提升 更 为 明显 ; 
5.2 评价 标准 与 基于 CNN 的 方法 2q 相 比 , 模型 的 MAE 下 降 了 16.7396, MSE 
模型 性 能 使 用 平均 绝对 误差 (mean absolute error, MAE) 司 样 有 较 明 显 的 改善 。Mall 数据 集 场景 变化 相对 固定 ， 单 


ng 


WR] 


和 平均 平方 误差 (mean squared error, MSE) 来 衡量 , 如 式 (9) 像 中 的 人 数 相对 稀少 ， 实 验 结果 表明 模型 在 人 群 相 对 稀 疏 的 图 
(10) 所 示 。 像 进行 估 计 也 能 获得 较 精 确 的 结果 ， 而 且 具 有 更 高 的 鲁 棒 性 。 
1) 平 均 绝 对 误差 MAE 图 5 给 出 了 模型 在 Mall 数据 集 的 实验 结果 示意 图 。 
"es YR a isi RA Mall 数据 集 的 实验 结果 对 比 
Tab.4 Comparison of experimental results in the mall dataset 
Eh, N 表示 测试 集中 图 片 数量 ， = 表示 通过 预测 人 群 密度 方法 MAE MSE 
图 得 到 的 人 群 数量 ，z 表示 图 片 中 实际 的 人 数 。MAE 表示 网 CARR" 3.43 17.7 
络 预测 结果 的 准确 性 , MAE 值 越 小 说 明 估 计 人 和 群 数量 越 准确 。 GPR 3.72 20.1 
2) 平 均 平 方 误差 MSE MoC-CNN P? 2.75 13.4 
MAE - iw -d (10) VLAD-CNNP?I 2.86 13.1 
N ^3 IFDM 2.45 3.2 


图 5 测试 图 片 密度 
Fig.5 Schematic diagram of test image density 


5.4 验证 性 实验 分 析 


为 验证 超 分 于 模块 对 模型 性 能 影响 ， 本 节 主 要 对 
去 掉 超 分 辨 紊 重建 模块 之 后 模型 的 运行 速度 以 及 性 能 指标 两 


EEA, E 5 fti S ELHA E E 
: 居 集 part B 上 的 性 能 指 
er 21. ue 
的 算法 MAE BEIR T 39.596, MSE 降低 了 
输入 图 像 大 小 为 224x224 的 条 件 下 ， 有 无 超 
岂 的 模型 总 参数 量 、 总 计算 量 以 及 模型 运行 束 
度 对 比 结果 ， 由 表 6 数据 可 以 看 出 ， 模 型 添加 超 分 辨 率 重 建 
模块 后 ， 参 数量 以 及 计算 量 并 没有 大 幅 增加 ， 这 是 因为 主体 
网 络 作 为 轻 量 级 网 络 ， 本 身 参数 量 与 计算 量 比 起 常规 网 络 就 
少 的 多 ， 而 且 本 文 对 子 像素 卷 积 层 进行 了 改进 ， 同 样 大 大 减 
少 了 参数 量 与 模型 的 计算 复杂 度 ， 因 此 对 于 本 文 添 加 超 分 辩 
建 模 块 的 模型 ， 仍 能 保持 较 快 的 运行 速度 。 

综 上 所 述 ， 引 入 了 超 分 辩 率 重建 模块 的 模型 ， 且 
了 一 定 的 计算 量 ， 使 模型 运行 速度 较 无 此 模块 的 有 月 
但 是 能 有 效 提高 预测 人 群 密度 图 的 质量 ， 使 模型 的 性 能 指标 
明显 增加 ， 能 得 到 更 加 准确 的 预测 结果 。 

表 5 有 无 超 分 辩 率 重建 模块 性 能 对 比 


Tab.5 Performance comparison of super- 


XH 


ig 


resolution reconstruction module /% 
方法 MAE(%) MSE(%) 
有 超 分 辩 率 重建 模块 20.5 32.6 


无 超 分 辨 率 重 建 模块 28.6 50.0 
表 6 d FHRS AE, AEU 
运行 速度 对 比 


Tab. 6 Comparison of parameters, calculation and operation speed of 


super-resolution reconstruction module 


参数 量 / 百 万 ”计算 量 / 百 万 ”运行 速度 /fps 
有 超 分 辩 0.29 39.96 52 
无 超 分 辩 0.23 32.27 48 


6 ”结束 语 


公共 场所 人 群 计数 问题 是 人 群 行为 研究 中 一 个 具有 挑战 
生 的 课题 ， 也 是 公共 安全 领域 的 研究 重点 。 公 共 场 所 中 往往 
包含 多 个 不 同 的 物体 同时 移动 ， 这 些 物体 的 尺寸 通常 较 小 ， 
并 且 在 图 像 中 呈现 出 类 似 的 外 观 ， 同 时 还 存在 相互 遮挡 ， 光 
照 不 均 、 相 机 畸变 等 因素 ， 这 些 因 素 使 得 公共 场所 人 群 数量 
分 析 变 得 非常 困难 。 为 了 更 好 的 解决 这 一 问题 ， 提 出 针对 不 
i0 eas te en 
图 像 中 人 数 之 和 得 到 最 终 的 预测 人 数 。 通 过 实验 分 析 可 知 ， 
本 文 提出 的 模型 虽然 较 现 有 方法 用 了 较 明显 的 改善 和 提升 
但 是 对 于 一 些 极端 密集 的 场景 ， 尤 其 是 难以 划分 远近 视野 区 
域 的 场景 仍然 存在 一 些 问题 。 本 文 后 续 工 作 准 备 继续 改进 网 
络 结构 以 适应 人 群 极端 密集 的 场景 ， 同 时 希望 能 使 模型 能 够 
应 用 到 实时 视频 图 像 的 分 析 中 ， 通 过 自动 可 靠 地 获取 监控 中 
的 人 数 或 人 群 密度 ， 对 人 群 的 流动 状态 、 流 动 方向 和 持续 时 
间作 出 综合 动态 预 估 ， 帮 助 工 作 人 员 优化 管理 。 
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